5.10.2 Regress-panel - lineære paneldata-analyser
Linære paneldata-analyser kan gjøres gjennom kommandoen regress-panel
. Dette er analyser der den avhengige variabelen er av typen kontinuerlig evt. har rangerbare verdier, f.eks. inntekt eller antall år med utdanning.
Paneldata-analyser er foreløpig ikke tilgjengelig for modellering av diskrete utfall (logistiske paneldata-analyser).
Syntax:
regress-panel <variabel> <variabelliste> [if <betingelse>] [,<opsjoner>]
Den avhengige variabelen må angis først, etterfulgt av forklaringsvariablene. Opsjoner kan benyttes for ulike formål, som f.eks. robust- eller cluster-estimering, jfr. underkapitlene nedenfor. I likhet med andre statistiske kommandoer, kan også regresjonskommandoer kombineres med en if
-betingelse for å kjøre regresjoner på utvalgte grupper. For full oversikt over muligheter, bruk kommandoen help regress-panel
.
Se kapittel 2.4 for hvordan en oppretter datasett for paneldata-analyse. Der finner en også et skript-eksempel.
En rekke typer paneldataanalyser kan tas i bruk, avhengig av hvilke antakelser som gjøres om de ulike variablenes variasjon over tid. Vanlige varianter som brukes er "fixed effect"- og "random effect"-analyser. Disse variantene er tilgjengelige gjennom opsjoner:
fe | fixed effect | Modell der man antar at individuelle effekter ikke varierer over tid (within-estimator). Her vil konstantleddet automatisk kontrollere for all uobservert heterogenitet som er konstant over tid. Ulempen er at faste variabler (måler egenskaper som ikke varierer over tid, f.eks. kjønn) ikke tillates, og koeffisientestimater for slike variabler vil ikke vises dersom de inngår i regresjonen. re brukes som standard dersom ingen modellopsjoner velges. |
re | random effect | Modell der man antar at individuelle effekter gitt ved konstantleddet varierer over tid (GLS-estimator). Denne modellen tillater estimering av koeffisienter for faste variabler. |
be | between effect | Modell der man benytter gjennomsnittet av alle variabler målt over tid, inkludert den avhengige variabelen (between-estimator). Man estimerer altså tverrsnittsvariasjon basert på gjennomsnittsverdier målt over tid. |
pooled | pooled | Modell der man ser bort fra tidseffekter, og betrakter paneldatasettet som et vanlig tverrsnittsdatasett (pooled-estimator). Man kjører altså en vanlig lineær regresjon (OLS) på et paneldatasett. Hvert individ vil da være representert flere ganger avhengig av antallet målinger. |
I eksempelet nedenfor brukes årslønn (årlig lønnsinntekt) som avhengig variabel, og dummyvariabler for hhv. sivilstatus=gift og bosted=oslo brukes som forklaringsvariabler. I tillegg er 5 måletidspunkter benyttet: 31/12 i årene 2011-2015. Populasjon = alle personer som fullførte et masterstudium i løpet av høstsemesteret 2010.
Eksempel 1: Panelregresjon med fixed effects
Eksempel 2: Panel-regresjon med random effects (samme datasett som eksempel 1)
Eksempel 3: "Pooled" panelregresjon
Faktorvariabler, og cluster- og robust-estimering kan også benyttes. Fremgangsmåten er den samme som for ordinær lineær regresjon. Se hhv. kapittel 5.4.1 og 5.4.3 for mer informasjon om dette.
-
i = within: Hvor mye av variansen innenfor panelenhetene modellen fanger opp
-
mellom = between: Hvor mye av variansen mellom panelenhetene modellen fanger opp
-
total: Den totale måler modellens forklaringskraft og ignorerer eventuelle inkluderte effekter. (Den totale er et vektet gjennomsnitt av de to ovenfor.)
-
Corr(u_i, Xb): Måler korrelasjonen mellom within enhetsresidual og regressorene i modellen. (Bare rapportert for fixed effect-modeller.)
-
Sigma u: Standardavvik for residualer innenfor grupper (rapporteres ikke for pooled-modeller)
-
Sigma e: Standardavvik for residualer (samlet feilledd) (rapporteres ikke for pooled-modeller)
-
Rho: Andel av varians som skyldes (rapporteres ikke for pooled-modeller)
fe
)?Når man utfører en panelanalyse med fast effekt-estimering, benyttes en teknikk som fjerner effekten av tidskonstante variabler. Det at estimatene for de tidskonstante variablene ikke vises i resultatene skyldes at de er fjernet i fast effekt-estimeringen. Dette skjer fordi modellen antar at disse effektene er fanget opp i feilleddet, og dermed ikke påvirker estimatene for de andre koeffisientene. Enkelt sagt, det man er interessert i gjennom fast effekt estimering er effekten av variabler som endrer seg over tid, ikke de som er konstante.